So sánh các mô hình sử dụng dữ liệu: Dải nhãn đánh dấu
Thành công trong triển khai các mô hình học máy phụ thuộc một cách quyết định vào sự sẵn có, chất lượng và chi phí của dữ liệu đã được gán nhãn. Trong những môi trường mà việc đánh dấu dữ liệu bằng con người là tốn kém, không khả thi hoặc đòi hỏi chuyên môn cao, các mô hình tiêu chuẩn sẽ trở nên kém hiệu quả hoặc thất bại hoàn toàn. Chúng tôi giới thiệu dải nhãn đánh dấu, phân biệt ba phương pháp cốt lõi dựa trên cách chúng tận dụng thông tin:Học giám sát (SL), Học phi giám sát (UL), và Học bán giám sát (SSL).
1. Học giám sát (SL): Độ chính xác cao, chi phí cao
SL hoạt động trên các tập dữ liệu mà mỗi đầu vào $X$ đều được ghép cụ thể với một nhãn chân lý đã biết $Y$. Mặc dù phương pháp này thường đạt độ chính xác dự đoán cao nhất cho các nhiệm vụ phân loại hoặc hồi quy, nhưng sự phụ thuộc vào việc đánh dấu dày đặc và chất lượng cao lại rất tốn kém về nguồn lực. Hiệu suất giảm mạnh nếu số lượng ví dụ có nhãn ít ỏi, khiến mô hình này dễ bị gián đoạn và thường không bền vững về mặt kinh tế đối với các tập dữ liệu lớn và đang thay đổi liên tục.
2. Học phi giám sát (UL): Phát hiện cấu trúc tiềm ẩn
UL chỉ hoạt động trên dữ liệu chưa được gán nhãn, $D = \{X_1, X_2, ..., X_n\}$. Mục tiêu của nó là suy luận ra các cấu trúc nội tại, phân bố xác suất nền tảng, mật độ hay các biểu diễn ý nghĩa nằm trong đa tạp dữ liệu. Các ứng dụng chính bao gồm nhóm dữ liệu (clustering), học đa tạp (manifold learning) và học biểu diễn (representation learning). UL cực kỳ hiệu quả trong xử lý tiền và trích xuất đặc trưng, cung cấp những hiểu biết quý giá mà không phụ thuộc vào đầu vào từ con người bên ngoài.
Cho: $D_L$: Dữ liệu có nhãn. $D_U$: Dữ liệu chưa gán nhãn. $\mathcal{L}_{SL}$: Hàm tổn thất giám sát. $\mathcal{L}_{Consistency}$: Hàm tổn thất buộc độ mịn dự đoán trên $D_U$.
Dạng khái niệm của hàm tổn thất SSL tổng là tổng có trọng số của hai thành phần: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Hệ số $\lambda$ điều khiển sự cân bằng giữa độ trung thực nhãn và sự phụ thuộc vào cấu trúc.